Análisis de complejidad muestral con Lyapunov para MDPs débilmente acoplados
Descubre cómo el análisis de Lyapunov permite aprender políticas casi óptimas en MDPs débilmente acoplados y bandidos inquietos con complejidad polinómica.
Descubre cómo el análisis de Lyapunov permite aprender políticas casi óptimas en MDPs débilmente acoplados y bandidos inquietos con complejidad polinómica.